El Aprendizaje Profundo es fundamentalmente una evolución del Aprendizaje Automático clásico, tratando el reconocimiento de patrones complejos como aproximación de funciones de alta dimensión problemas. Este dominio depende de escalar técnicas establecidas de álgebra lineal y optimización, pasando de modelos clásicos de bajo número de parámetros (como SVM estándar o regresión lineal) a modelos que involucran millones o billones de parámetros. El éxito requiere familiaridad con la definición de estas relaciones complejas usando notación matricial eficiente.
1. La Estructura Fundamental: Aproximación de Funciones con Parámetros Altamente Específicos
Una red neuronal profunda se construye apilando transformaciones lineales simples (multiplicaciones matriciales usando pesos $W$ y sesgos $b$) intercaladas con funciones de activación no lineales por elementos. Esta arquitectura permite que la red aprenda automáticamente jerarquías cada vez más abstractas y complejas de características directamente desde entradas crudas.
2. El Enlace Crítico: Cálculo Multivariado y Retropropagación
Entrenar estos modelos masivos implica minimizar una función de pérdida $L(\theta)$ sobre todos los parámetros de la red $\theta$. Este proceso requiere calcular de forma eficiente el gradiente $\nabla_{\theta} L$ para cada parámetro individual usando un algoritmo llamado Retropropagación, que es la aplicación directa de la regla de la cadena multivariada de diferenciación.
The weights $W$ have dimension $(D \times K)$. Therefore, the gradient $\frac{\partial L}{\partial W}$ must also be $(D \times K)$ to perform the parameter update $W := W - \eta \frac{\partial L}{\partial W}$.